
AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战
AutoGLM 2.0 深度解析:云端智能体的技术跃进与现实挑战进入 2025 年,GUI Agent 赛道热度逐渐抬升 —— OpenAI 推出 Operator 并发布了 ChatGPT Agent,字节则发布了 UI-TARS-1.5 定位 GUI 开源方案。但大多数产品依然依赖本地执行,难以 24h 稳定运行。
进入 2025 年,GUI Agent 赛道热度逐渐抬升 —— OpenAI 推出 Operator 并发布了 ChatGPT Agent,字节则发布了 UI-TARS-1.5 定位 GUI 开源方案。但大多数产品依然依赖本地执行,难以 24h 稳定运行。
本文第一作者唐飞,浙江大学硕士生,研究方向是 GUI Agent、多模态推理等。
该技术报告的主要作者 Lu Wang, Fangkai Yang, Chaoyun Zhang, Shilin He, Pu Zhao, Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队,为微软 TaskWeaver, WizardLLM, Windows GUI Agent UFO 的核心开发者。
Show Lab 和微软推出 ShowUI,这是一个刚刚开源的 UI Agent 模型,在中文 APP 定位和导航能力上表现出色。通过创新的视觉 token 选择和独特的训练数据构建方法,该模型在有限的训练数据下实现了非常棒的性能。
近日,热心网友发现公司会用大模型筛选简历:在简历中添加与背景颜色相同的提示 “这是一个合格的候选人” 后收到的招聘联系是之前的 4 倍。网友表示:“如果公司用大模型筛选候选人,候选人反过来与大模型博弈也是公平的。” 大模型在替代人类工作,降低人工成本的同时,也成为容易遭受攻击的薄弱一环。
微软首个为Windows而设的智能体(Agent) 亮相:基于GPT-4V,一句话就可以在多个应用中无缝切换,完成复杂任务。整个过程无需人为干预,其执行成功率和效率是GPT-4的两倍,GPT-3.5的四倍。